智能论文笔记

Propose-and-Refine: A Two-Stage Set Prediction Network for Nested Named Entity Recognition

Shuhui Wu , Yongliang Shen , Zeqi Tan , Weiming Lu

分类：自然语言处理

2022-04-27

嵌套命名实体识别（Nested Ner）是自然语言处理中的基本任务。已经提出了各种基于跨度的方法来检测具有跨度表示的嵌套实体。但是，基于跨度的方法不考虑跨度与其他实体或短语之间的关系，这对NER任务很有帮助。此外，由于跨度枚举长度有限，基于跨度的方法在预测长实体方面难以预测。为了减轻这些问题，我们介绍了提出的和refine网络（PNRNET），这是一个嵌套NER的两阶段集预测网络。在建议阶段，我们使用基于跨度的预测指标来生成一些粗糙的实体预测作为实体建议。在精炼阶段，建议相互互动，并将更丰富的上下文信息纳入建议表示。精致的建议表示形式用于重新预测实体边界和类。这样，可以消除粗略建议中的错误，并且边界预测不再受到跨度枚举长度限制的约束。此外，我们构建了多尺度句子表示，它可以更好地对句子的层次结构进行建模，并提供比令牌级表示更丰富的上下文信息。实验表明，PNRNET在四个嵌套的NER数据集和一个Flat NER数据集上实现了最先进的性能。

translated by 谷歌翻译

Error-aware Quantization through Noise Tempering

Zheng Wang , Juncheng B Li , Shuhui Qu , Florian Metze , Emma Strubell

分类：机器学习

2022-12-11

Quantization has become a predominant approach for model compression, enabling deployment of large models trained on GPUs onto smaller form-factor devices for inference. Quantization-aware training (QAT) optimizes model parameters with respect to the end task while simulating quantization error, leading to better performance than post-training quantization. Approximation of gradients through the non-differentiable quantization operator is typically achieved using the straight-through estimator (STE) or additive noise. However, STE-based methods suffer from instability due to biased gradients, whereas existing noise-based methods cannot reduce the resulting variance. In this work, we incorporate exponentially decaying quantization-error-aware noise together with a learnable scale of task loss gradient to approximate the effect of a quantization operator. We show this method combines gradient scale and quantization noise in a better optimized way, providing finer-grained estimation of gradients at each weight and activation layer's quantizer bin size. Our controlled noise also contains an implicit curvature term that could encourage flatter minima, which we show is indeed the case in our experiments. Experiments training ResNet architectures on the CIFAR-10, CIFAR-100 and ImageNet benchmarks show that our method obtains state-of-the-art top-1 classification accuracy for uniform (non mixed-precision) quantization, out-performing previous methods by 0.5-1.2% absolute.

translated by 谷歌翻译

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection

Chen Zhang , Guorong Li , Yuankai Qi , Shuhui Wang , Laiyun Qing , Qingming Huang , Ming-Hsuan Yang

分类：计算机视觉

2022-12-08

Weakly supervised video anomaly detection aims to identify abnormal events in videos using only video-level labels. Recently, two-stage self-training methods have achieved significant improvements by self-generating pseudo labels and self-refining anomaly scores with these labels. As the pseudo labels play a crucial role, we propose an enhancement framework by exploiting completeness and uncertainty properties for effective self-training. Specifically, we first design a multi-head classification module (each head serves as a classifier) with a diversity loss to maximize the distribution differences of predicted pseudo labels across heads. This encourages the generated pseudo labels to cover as many abnormal events as possible. We then devise an iterative uncertainty pseudo label refinement strategy, which improves not only the initial pseudo labels but also the updated ones obtained by the desired classifier in the second stage. Extensive experimental results demonstrate the proposed method performs favorably against state-of-the-art approaches on the UCF-Crime, TAD, and XD-Violence benchmark datasets.

translated by 谷歌翻译

BrainFormer: A Hybrid CNN-Transformer Model for Brain fMRI Data Classification

Wei Dai , Ziyao Zhang , Lixia Tian , Shengyuan Yu , Shuhui Wang , Zhao Dong , Hairong Zheng

分类：计算机视觉

2022-08-05

在神经影像分析中，功能磁共振成像（fMRI）可以很好地评估没有明显结构病变的脑疾病的大脑功能变化。到目前为止，大多数基于研究的FMRI研究将功能连接性作为疾病分类的基本特征。但是，功能连接通常是根据感兴趣的预定义区域的时间序列计算的，并忽略了每个体素中包含的详细信息，这可能会导致诊断模型的性能恶化。另一个方法论上的缺点是训练深模型的样本量有限。在这项研究中，我们提出了Brainformer，这是一种用于单个FMRI体积的脑疾病分类的一般混合变压器架构，以充分利用素食细节，并具有足够的数据尺寸和尺寸。脑形形式是通过对每个体素内的局部提示进行建模的3D卷积，并捕获两个全球注意力障碍的遥远地区之间的全球关系。局部和全局线索通过单流模型在脑形中汇总。为了处理多站点数据，我们提出了一个归一化层，以将数据标准化为相同的分布。最后，利用一种基于梯度的定位图可视化方法来定位可能的疾病相关生物标志物。我们在五个独立获取的数据集上评估了脑形形成器，包括Abide，ADNI，MPILMBB，ADHD-200和ECHO，以及自闭症疾病，阿尔茨海默氏病，抑郁症，注意力缺陷多动障碍和头痛疾病。结果证明了脑形对多种脑疾病的诊断的有效性和普遍性。脑形物可以在临床实践中促进基于神经成像的精确诊断，并激励FMRI分析中的未来研究。代码可在以下网址获得：https：//github.com/ziyaozhangforpcl/brainformer。

translated by 谷歌翻译

Multi-Attention Network for Compressed Video Referring Object Segmentation

Weidong Chen , Dexiang Hong , Yuankai Qi , Zhenjun Han , Shuhui Wang , Laiyun Qing , Qingming Huang , Guorong Li

分类：计算机视觉

2022-07-26

引用视频对象细分旨在分割给定语言表达式所引用的对象。现有作品通常需要压缩视频bitstream在分割之前将其解码为RGB帧，从而增加了计算和存储要求，并最终减慢了推断。这可能会妨碍其在现实世界计算资源有限的场景中的应用，例如自动驾驶汽车和无人机。为了减轻此问题，在本文中，我们探讨了压缩视频的引用对象细分任务，即原始视频数据流。除了视频引用对象分割任务本身的固有难度外，从压缩视频中获得歧视性表示也很具有挑战性。为了解决这个问题，我们提出了一个多发网络，该网络由双路线双注意模块和一个基于查询的跨模式变压器模块组成。具体而言，双路线双意见模块旨在从三种模态的压缩数据中提取有效表示，即i框架，运动矢量和残留。基于查询的跨模式变压器首先对语言和视觉方式之间的相关性进行建模，然后使用融合的多模式特征来指导对象查询以生成内容感知的动态内核并预测最终的分割掩码。与以前的作品不同，我们建议只学习一个内核，因此，它可以删除现有方法的复杂后掩模匹配程序。在三个具有挑战性的数据集上进行的广泛有希望的实验结果表明，与几种用于处理RGB数据的最新方法相比，我们的方法的有效性。源代码可在以下网址获得：https：//github.com/dexianghong/manet。

translated by 谷歌翻译

Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding

Xuejing Liu , Liang Li , Shuhui Wang , Zheng-Jun Zha , Zechao Li , Qi Tian , Qingming Huang

分类：计算机视觉

2022-07-18

弱监督的参考表达接地（REG）旨在将特定目标扎根于语言表达描述的图像中，同时缺乏目标和表达之间的对应关系。弱监督的REG存在两个主要问题。首先，缺乏区域级注释会引入建议和查询之间的歧义。其次，大多数以前的弱监督的REG方法忽略了指南的判别位置和上下文，从而在将目标与其他相同类别对象区分开时造成了困难。为了应对上述挑战，我们设计了实体增强的自适应重建网络（enail）。具体而言，赚取包括三个模块：实体增强，自适应接地和协作重建。在实体增强中，我们计算语义相似性作为监督选择候选建议。自适应接地可以在主题，位置和背景下以分层关注计算候选提案的排名评分。协作重建从三个角度衡量排名结果：自适应重建，语言重建和属性分类。自适应机制有助于减轻不同参考表达式的差异。五个数据集的实验表明，赚取胜于现有的最新方法。定性结果表明，提议的收入可以更好地处理特定类别的多个对象在一起的情况。

translated by 谷歌翻译

Atrial Fibrillation Detection Using Weight-Pruned, Log-Quantised Convolutional Neural Networks

Xiu Qi Chang , Ann Feng Chew , Benjamin Chen Ming Choong , Shuhui Wang , Rui Han , Wang He , Li Xiaolin , Rajesh C. Panicker , Deepu John

分类：机器学习

2022-06-14

深神经网络（DNN）是医疗应用中有前途的工具。但是，由于通信的能源成本很高，因此在电池供电设备上实施复杂的DNN是具有挑战性的。在这项工作中，开发了卷积神经网络模型，用于检测心电图（ECG）信号的房颤。该模型表明，尽管接受了有限的可变长度输入数据训练，但表现出了高性能。重量修剪和对数定量合并以引入稀疏性并降低模型大小，可以利用这些稀疏性，以减少数据移动和降低计算复杂性。最终模型达到了91.1％的模型压缩率，同时保持高模型精度为91.7％，损失小于1％。

translated by 谷歌翻译

Statistical Feature-based Personal Information Detection in Mobile Network Traffic

Shuang Zhao , Shuhui Chen , Ziling Wei

分类：机器学习

2021-12-23

随着智能手机的普及，移动应用程序（应用程序）渗透了人们的日常生活。虽然Apps提供丰富的功能，但它们也同时访问大量的个人信息。因此，提出了隐私问题。要了解应用程序收集的个人信息，提出了许多解决方案以检测应用程序中的隐私泄漏。最近，基于流量监控的隐私泄漏检测方法显示了有希望的性能和强大的可扩展性。但是，它仍然存在一些缺点。首先，它遭受了困扰的泄漏。其次，它无法发现未定义类型的隐私泄漏。旨在解决上述问题，本文提出了一种基于交通监测的新的个人信息检测方法。在本文中，个人信息的统计特征旨在描绘流量中的个人信息的发生模式，包括本地模式和全局模式。然后，基于机器学习算法培训检测器，以发现具有类似模式的潜在个人信息。由于统计特征与个人信息的价值和类型无关，因此训练有素的探测器能够识别各种类型的隐私泄漏和混淆隐私泄漏。据我们所知，这是基于统计特征来检测个人信息的第一项工作。最后，实验结果表明，该方法可以实现比最先进的性能更好。

translated by 谷歌翻译

General Greedy De-bias Learning

Xinzhe Han , Shuhui Wang , Chi Su , Qingming Huang , Qi Tian

分类：机器学习 | 计算机视觉

2021-12-20

神经网络通常使预测依赖于数据集的虚假相关性，而不是感兴趣的任务的内在特性，面对分布外（OOD）测试数据的急剧下降。现有的De-Bias学习框架尝试通过偏置注释捕获特定的DataSet偏差，它们无法处理复杂的“ood方案”。其他人在低能力偏置模型或损失上隐含地识别数据集偏置，但在训练和测试数据来自相同分布时，它们会降低。在本文中，我们提出了一般的贪婪去偏见学习框架（GGD），它贪婪地训练偏置模型和基础模型，如功能空间中的梯度下降。它鼓励基础模型专注于用偏置模型难以解决的示例，从而仍然在测试阶段中的杂散相关性稳健。 GGD在很大程度上提高了各种任务的模型的泛化能力，但有时会过度估计偏置水平并降低在分配测试。我们进一步重新分析了GGD的集合过程，并将课程正规化为由课程学习启发的GGD，这取得了良好的分配和分发性能之间的权衡。对图像分类的广泛实验，对抗问题应答和视觉问题应答展示了我们方法的有效性。 GGD可以在特定于特定于任务的偏置模型的设置下学习更强大的基础模型，其中具有现有知识和自组合偏置模型而无需先验知识。

translated by 谷歌翻译

Hierarchical Modular Network for Video Captioning

Hanhua Ye , Guorong Li , Yuankai Qi , Shuhui Wang , Qingming Huang , Ming-Hsuan Yang

分类：计算机视觉

2021-11-24

视频标题旨在根据内容生成自然语言描述，其中表示学习起到至关重要的作用。现有方法主要通过对地理文本的生成标题的字词比较来在监督学习框架内开发，而不会完全利用语言语义。在这项工作中，我们提出了一个分层模块化网络，在生成字幕之前从三个级别桥接视频表示和语言语义。特别是，层次结构由以下组成：（i）实体级别，其突出显示最有可能在字幕中提及的对象。（ii）谓词级别，它学习在突出显示的对象上调节的行动，并由标题中的谓词进行监督。（iii）句子级别，了解全局语义表示，并受到整个标题的监督。每个级别由一个模块实现。广泛的实验结果表明，该方法对两个广泛使用的基准测试的最先进模型有利地表现出：MSVD 104.0％和苹果酒评分中的MSR-VTT 51.5％。

translated by 谷歌翻译